%	\chapter{事件的概率}
	\section{概率是什么}

		事件指某种或某些情况的陈述，可能发生，可能不发生。发生与否，要等到试验有了结果以后才能知晓。对于一个事件，总有一个明确界定的、由人为主动进行或仅在一旁观察的试验。这个试验的全部可能结果，在试验前就明确了。

		假定某个试验有有限可能的结果$e_1,e_2.\cdots.e_N$。假定从该试验的条件和实施方法上去分析，找不到任何理由认为其中某一结果比其他任一结果都更具有优势，那么可以认为所有结果都具有同等可能的出现机会，即$1/N$的出现机会。称这样的试验结果是“等可能的”。

	\begin{definition}[事件的概率]
		设一个试验有$N$个等可能的结果，而事件$E$恰包括其中的$M$个结果，则事件$E$的概率，记为$P(E)$，定义为
		\begin{equation}
		P(E)=M/N
		\end{equation}
	\end{definition}
	
	把等可能性解释或引申为“等面积，等概率”。这种方法算出来的概率称为“几何概率”。值得注意的是，在某些问题中不同的几何引申方法会算出不同的几何概率结果，这并无矛盾可言，因为每一种不同的引申，都意味着对“等可能性”的含义作不同的解释。问题在于哪一种解释最符合你的问题的实际含义。%\cite{陈希儒1992概率论与数理统计}
	
	统计频率提供了一种估计概率的方法，以及一种检验理论正确与否的准则。
	
	\section{古典概率计算}
排列公式：在$n$个物体中\emph{依次}选出$r$个，选法有
\begin{equation}
A_n^r=n(n-1)(n-2)\cdots(n-r+1)
\end{equation}
特别地，$n$个物体的排列方法有
\begin{equation}
A_n^n=n(n-1)(n-2)\cdots 1=n!
\end{equation}


组合公式：在$n$个物体中选出$r$个，选法组合有
\begin{equation}
C_n^r=\frac{A_n^r}{r!}=\frac{n!}{r!(n-r)!}
\end{equation}
特别地，把所有物件都取出来，那自然只有一种选法：
\begin{equation}
C_n^n=1
\end{equation}
一般地，定义
\begin{equation}
\begin{pmatrix}
% n&w&q\\r&123&678\\\pi &\lambda &\frac{3}{2}
n\\r
\end{pmatrix}=\frac{n(n-1)\cdots(n-r+1)}{r!}
\end{equation}
其中，$r$是非负整数，$n$可以是任意实数。

二项式展开公式：
\begin{equation}
(a+b)^n=\sum_{i=0}^{n}\begin{pmatrix}
n\\i
\end{pmatrix}a^ib^{n-i}
\end{equation}
特别地，令$a=b=1$可得
\begin{equation}
\sum_{i=0}^{n}\begin{pmatrix}
n\\i
\end{pmatrix}=2^n
\end{equation}
令$a=-1,b=1$可得
\begin{equation}
\sum_{i=0}^{n}(-1)^n\begin{pmatrix}
n\\i
\end{pmatrix}=0
\end{equation}
比较恒等式$(1+x)^{m+n}=(1+x)^m(1+x)^n$的两边系数，可得
\begin{equation}
\begin{pmatrix}
m+n\\k
\end{pmatrix}=\sum_{i=0}^k
\begin{pmatrix}
m\\i
\end{pmatrix}
\begin{pmatrix}
n\\k-i
\end{pmatrix}
\end{equation}
$n$个相异物件分成$k$堆，各堆物件数分别为$r_1,\cdots,r_k$的分法是
\begin{equation}
\begin{pmatrix}
n\\r_1\ \cdots\ r_k
\end{pmatrix}=\frac{n!}{r_1!\cdots r_k!}
\end{equation}
事实上，它是组合(可以看作分成两堆)的推广。它也称为多项式系数，因为这是$(x_1+\cdots+x_k)^n$的展开式中，$x_1^{r_1}\cdots x_k^{r_k}$这一项的系数。

	\section{Kolmogorov概率公理}
	\begin{definition}[{$\sigma$ 代数}]
		设$\Omega$是抽象集合，$\mathfrak{F}$是$\Omega$上一些子集构成的集族。如果集族满足
		\begin{enumerate}
			\item $\Omega\in\mathfrak{F}$
			\item 对取逆运算封闭：如果$A\in\mathfrak{F}$，则$\overline{A}\in\mathfrak{F}$
			\item 对可列并运算封闭：如果$\{A_n\}_{n\geq 1}\subseteq \mathfrak{F}$，则$\bigcup_{n=1}^{+\infty}A_n\in\mathfrak{F}$
		\end{enumerate}
	则称集族$\mathfrak{F}$为$\Omega$上的$\sigma-$代数。
	\end{definition}
	$\sigma-$代数满足如下性质：
	\begin{property}
		\begin{enumerate}
			\item $\varnothing\in\mathfrak{F}$
			\item 如果$\{A_n\}_{n\geq 1}\subseteq \mathfrak{F}$，则由De Morgan律得到$\bigcap_{n=1}^{+\infty}A_n\in\mathfrak{F}$
			\item $\sigma-$代数对有限并运算封闭
			\item $\sigma-$代数对有限交运算封闭
			\item $\sigma-$代数对减法封闭：$\forall A,B\in\mathfrak{F}\Rightarrow A-B\in\mathfrak{F}$
		\end{enumerate}
	\end{property}

	\begin{theorem}{}
		如果$\{\mathfrak{F}_i\}_{i\in I}$是一族$\sigma-$代数，则$\bigcap_{i\in I}\mathfrak{F}$也是$\sigma-$代数。
	\end{theorem}
	\begin{proof}
		根据定义来验证。
		\begin{enumerate}
			\item $\Omega\in\bigcap_{i\in I}\mathfrak{F}$是显然的
			\item 如果$A\in\bigcap_{i\in I}\mathfrak{F}$，则$A\in\mathfrak{F}_i,\ \forall i\in I$。由于$\mathfrak{F}_i$是$\sigma-$代数，因此$\overline{A}\in\mathfrak{F}_i,\ \forall i\in I$。这也就是$\overline{A}\in\bigcap_{i\in I}\mathfrak{F}$
			\item 可列并运算证明方法与2类似。\qed
		\end{enumerate}
	\end{proof}
	
	当映射$f:A\to B$中的$A$是个集族，则说$f$是个集函数。1933年，Kolmogorov提出了如下的概率论的公理化定义：
	\begin{definition}[{概率$P$}]
		称$\mathfrak{F}$上的集函数$P$为概率，如果$P$满足
		\begin{enumerate}
			\item 非负性，也就是$\forall A\in\mathfrak{F},\ P(A)\geq 0$
			\item 归一性，也就是$P(\Omega)=1$。
			\item 可列可加性($\sigma-$可加性)，设$\{A_n\}_{n\geq 1}\subset\mathfrak{F}$之间的交集为空集，则
			\begin{equation}
			P\left(\sum_{n=1}^{+\infty}A_n\right)=\sum_{n=1}^{+\infty}P(A_n)
			\end{equation}
		\end{enumerate}
	\end{definition}
	注意，概率定义在$\sigma-$代数上，而不是定义在事件空间上。
	
	函数$P$具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item $P(\varnothing)=0$
			\item 有限可加性。设$\{A_i\}_{i= 1,\cdots,n}\subset\mathfrak{F}$之间的交集为空集，则
			\begin{equation}
			P\left(\sum_{i=1}^{n}A_i\right)=\sum_{i=1}^{n}P(A_i)
			\end{equation}
			\item 可减性。如果$A,B\in\mathfrak{F}$且$A\subset B$，则$P(B-A)=P(B)-P(A)$
			\item 单调性。如果$A,B\in\mathfrak{F}$且$A\subset B$，则$P(A)\leq P(B)$
			\item 从下连续性。对$\{A_n\}_{n\geq 1}\subset\mathfrak{F},\ A_1\subset A_2\subset\cdots\subset A_n\subset\cdots\subset A$，则$P(A_n)$单调递增趋于$P(A)$
			\item 从上连续性。对$\{A_n\}_{n\geq 1}\subset\mathfrak{F},\ A_1\supset A_2\supset\cdots\supset A_n\supset\cdots\supset A$，则$P(A_n)$单调递减趋于$P(A)$。
			\item 次$\sigma$可加性。设$\{A_n\}_{n\geq 1}\subset\mathfrak{F}$，则
			\begin{equation}
			P\left(\sum_{n=1}^{+\infty}A_n\right)\leq\sum_{n=1}^{+\infty}P(A_n)
			\end{equation}
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 取$A_1=\Omega,\ A_2=\cdots=\varnothing$，则由可列可加性可得$0=\sum_{n=2}^{+\infty}$。由非负性可得$P(\varnothing)=0$
			\item 只需取$A_{n+1}=\cdots=\varnothing$即可。
			\item $B$是$A$和$B-A$的不交并，也就是$B=A+(B-A)$.从而$P(B)=P(A)+P(B-A)$
			\item 由有限可加性可得，$P(B)=P(A)+P(B-A)\geq P(A)$
			\item 作不交并处理，考虑到
			\begin{equation}
			A=\bigcup_{n=1}^{+\infty}A_n=A_1+\sum_{n=2}^{+\infty}(A_n-A_{n-1})
			\end{equation}
			从而由可列可加性可得
			\begin{equation}\begin{aligned}
			P(A)&=P\left(A_1+\sum_{n=2}^{+\infty}(A_n-A_{n-1})\right)\\
			&=P(A_1)+\sum_{n=2}^{+\infty}P(A_n-A_{n-1})\\
			&=P(A_1)+\sum_{n=2}^{+\infty}(P(A_n)-P(A_{n-1}))\\
			&=\lim\limits_{N\to\infty}\left[P(A_1)+\sum_{n=2}^{+N}(P(A_n)-P(A_{n-1}))\right]\\
			&=\lim\limits_{N\to\infty}P(A_N)
			\end{aligned}\end{equation}
			\item 注意到$A_n$单调递减趋于$A$，则$\overline{A}_n$单调递增趋于$\overline{A}$。根据从下连续性即可得证。
			\item 作不交并处理，令$B_1=A_1,\ B_n=A_n\backslash(A_1\cup\cdots\cup A_{n-1})=A_n\cup \bar{A_1}\cup\cdots\bigcup\overline{A}_n$。$\{B_n\}$两两不相交，由单调性和可列可加性，有
			\begin{equation}
			P\left(\bigcup_{n=1}^{+\infty}A_n\right)=P\left(\sum_{n=1}^{\infty}B_n\right)=\sum_{n=1}^{\infty}P(B_n)\leq\sum_{n=1}^{\infty}P(A_n)
			\end{equation}
		\end{enumerate}
	\qed
	\end{proof}

	\begin{theorem}{}
		设$P$是$\mathfrak{F}$上满足$P(\Omega)=1$的非负集函数，则下面命题等价：
		\begin{enumerate}
			\item $P$具有$\sigma-$可加性
			\item $P$具有有限可加性且$P$从下连续
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		$1.\Rightarrow 2.$已经证明。$2.\Rightarrow 1$:
		\begin{equation}\begin{aligned}
		P\left(\sum_{n=1}^{+\infty}A_n\right)&=P\left(\lim\limits_{m\to\infty}\sum_{n=1}^{m}A_n\right)=\lim\limits_{m\to\infty}P\left(\sum_{n=1}^{m}A_n\right)\\
		&=\lim\limits_{m\to\infty}\sum_{n=1}^{m}P(A_n)=\sum_{n=1}^{\infty}P(A_n)
		\end{aligned}\end{equation}
		其中，第二个等号因从下连续性成立，第三个等号由有限可加性成立。
	\end{proof}
	\begin{theorem}{}
		设$A,B\in\mathfrak{F}$，则$P(A\cup B)=P(A)+P(B)-P(A\cap B)$。
	\end{theorem}
	\begin{proof}
		作不交并处理：$A\cup B=A\cup(B\backslash A)=A+(B\backslash A)=A+(B-AB)$。根据有限可加性和可减性可得，$P(A\cup B)=p(A)+P(B-AB)=P(A)+P(B)-P(AB)$
	\end{proof}
	
	\begin{corollary}{}
		设$A,B\in\mathfrak{F}$，则$P(A\cup B)\geq P(A)+P(B)-1$。
	\end{corollary}


	\section{事件的运算}
	\begin{definition}[样本点与事件]
	在全集$\Omega$中，元素$\omega\in\Omega$称为样本点。而$\Omega$上$\sigma-$代数$\mathfrak{F}$中的元素$A\in\mathfrak{F}$称为事件。如果样本点$\omega\in A$，则称事件$A$发生，否则称事件不发生。
	\end{definition}
	
	\begin{definition}[对立事件、必然事件、不可能事件]
	称$\overline{A}=\Omega-A$为事件$A$的对立事件。特别地，$A=\varnothing$时，事件称为不可能事件；$A=\Omega$时，事件称为必然事件。如果$P(A)=1$，则称$A$几乎必然发生。
	\end{definition}

	\begin{definition}[互斥事件]
	如果事件$A,B\in\mathfrak{F}$满足$A\cap B=\varnothing$时，称事件$A$和$B$互斥。对于互斥事件$A,B$，记$A+B=A\cap B$。对于事件$\{A_n\}_{n\geq 1}\in\mathfrak{F}$，称这些事件互斥，当且仅当$\forall i,j\geq 1, i\neq j, A_i, A_j$两两互斥。
	\end{definition}
	由概率测度的定义即可知道：
	\begin{equation}P(A+B)=P(A)+P(B)\end{equation}
	另一方面，先前已经证明
	\begin{equation}P(A\cup B)=P(A)+P(B)-P(A\cap B)=P(A)+P(B)-P(AB)\end{equation}
	
	考虑如下问题：扔一次骰子，已知点数为偶数，求投出2的概率。在附加了条件之后，利用古典概型时，事件“投出2”并未改变。变化的是样本空间，它被缩小了。\emph{所以条件概率的本质是对样本空间的限制。}
	\begin{definition}[{条件概率}]
	如果$A,B\in\mathfrak{F}$为事件，则$P(B|A)$指的是在条件$A$下$B$发生的条件概率。
	
	当$P(A)>0$时，\begin{equation}P(B|A)=\frac{P(AB)}{P(A)}\end{equation}
	
	设$A,B\in\mathfrak{F},\ P(A)>0$，定义条件概率测度$P_A(B)=P(B|A)$。条件概率测度满足概率测度的定义。
	\end{definition}
	
	问题：某个家庭中有两个小孩。已知其中一个是女孩，那么另一个是女孩的概率为多少？
	
	这是一道月经题，在语言上具有一些迷惑性。单单“其中一个是女孩”，语义理解为“存在一个是女孩”或者“至少一个是女孩”，此时用条件概率算出来答案为1/3；如果考虑到“有且仅有一个女孩，另一个是男孩”，则此时答案为1；如果上下文有“另一个不清楚”的意思，则应该理解为“特指问者知道性别”的那个是女孩。此时应该是1/2。
	
	
	\begin{definition}[{独立事件}]
	如果事件$A,B\in\mathfrak{F}$满足
	\begin{equation}P(AB)=P(A)P(B)\end{equation}
	则称$A$与$B$独立。
	
	若事件$A_1,A_2,\cdots,A_n\in\mathfrak{F}$满足\begin{equation}P(A_1A_2\cdots A_n)=P(A_1)P(A_2)\cdots P(A_n)\end{equation}
	则称这些事件相互独立。 
	\end{definition}
	一些事件相互独立必然可得这些事件之间两两独立。但需要注意，一些事件之间两两互相独立并不一定满足这些事件相互独立。这一点必须与互斥事件的性质区分开来。这个性质令人困惑的原因可能是，两两“独立事件”并不一定真的是具有完全不相干的因果律在背后，仅仅做一些数学上的安排也能达到类似的效果，但这种数学上的安排是不能推到真正的所有事件相互独立的。
	
	从样本空间的角度来考虑，以古典概型为例，$A$作为条件缩小了样本空间的“大小”，而$B$“等比例地”缩小了发生的“事件数目”。最终所造成的结果就是，无论加不加$A$事件发生的条件，$B$的概率都不变。同样从样本空间的角度来考虑，“许多事件相互独立”意味着要把$A_1A_2\cdots A_{n-1}$全部作为条件缩小样本空间，然后考察$A_n$的前后变化。
	
	如果$A$与$B$独立，且概率都不为零，那么它们必然不互斥；如果$A$与$B$互斥，那么它们必然不独立。
	\section{全概率公式和贝叶斯公式}
	\begin{theorem}[{全概率公式}]
		设事件$A_1,A_2,\cdots,A_n$互斥，$B\subset \bigcup_{i=1}^nA_i=\Omega$，则全概率公式成立：
		\begin{equation}
		P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i)
		\end{equation}
	\end{theorem}
	\begin{proof}
		\begin{equation}P(B)=P\left(\bigcup_{i=1}^nBA_i\right)=\sum_{i=1}^nP(BA_i)=\sum_{i=1}^nP(A_i)P(B|A_i)\end{equation}
		\qed
	\end{proof}
	事实上，全概率公式可以理解为$A_1,A_2,\cdots,A_n$提供了事件$B$的一个两两不交的划分(也称为完备事件群)，所以$B$发生的概率就拆分成了$n$个小块样本空间内$B$发生的条件概率之和。
	
	在这里讨论一个经典经典问题：盒子里$m$个除颜色外相同的球中有$n$个黑色球，$m-n$个白球。显然，抽签一次得到黑球的概率是$n/m$。但是，如果第一个人抽完了不放回，轮到第二个人抽时，他抽到黑球的概率还是不是$n/m$？
	
	由全概率公式，可将第一个人抽中的球分为黑球$P(A_1)$和白球$P(A_2)$。那么，当第一个人抽中的是黑球的条件下(注意，这个时候只缩小了样本空间，而没有其他效应)，第二个人抽中黑球的概率是
	\begin{equation}P(A_1)P(B|A_1)=\frac{n}{m}\frac{n-1}{m-1}\end{equation}
	当第一个人抽中的是白球的条件下，第二个人抽中黑球的概率是
	\begin{equation}P(A_2)P(B|A_2)=\frac{m-n}{m}\frac{n}{m-1}\end{equation}
	从而由全概率公式，第二个人总的抽中黑球的概率是
	\begin{equation}P(B)=\frac{n(n-1)+(m-n)n}{m(m-1)}=\frac{n}{m}\end{equation}
	以上情形可以用归纳法推广到多个参与抽签的人。即使抽签顺序有先后，依然不改变每个人抽到黑球的概率。抽签是公平的。
	 
	\begin{theorem}[{贝叶斯公式}]
		设事件$A_1,A_2,\cdots,A_n$构成完备事件群，$B\subset\bigcup_{i=1}^n A_i$，那么贝叶斯公式成立：
		\begin{equation}
		P(A_j|B)=\frac{P(A_jB)}{P(B)}=\frac{P(B|A_j)P(A_j)}{\sum_{i=1}^nP(A_i)P(B|A_i)}
		\end{equation}
	\end{theorem}
	尽管从形式上看贝叶斯公式平平无奇，但其哲学意义非常深刻。在全概率公式中，我们往往把$A_i$视为$B$的因，也就是说，在一定“因”($A_i$)的条件下，“结果”$B$发生的概率往往是比较好确定的，然后我们把各个因加总起来，就得到了结果发生的概率。那么，贝叶斯公式则给我们提供了一套相反的路径：现在我们已经知道结果$B$发生了，就可以用贝叶斯公式敲定它背后的原因是$A_i$的概率。

	贝叶斯公式引起的反直觉现像如下问题所示。设新冠病毒在人口中的携带率为0.03。检测试纸其实并不完美，存在假阴性的可能。在工厂的实验室中可以测定：$P(+|illness)=0.99$，$P(-|illness)=0.01$，$P(+|health)=0.05$，$P(-|health)=0.95$。其中$+$表示阳性，$-$表示阴性，$illness$表示带病毒，$health$代表不带病毒。现在某人检出了阳性，他有多大几率带病毒了？
	
	由贝叶斯公式可以算出，
	\begin{equation}\begin{aligned}
	P(illness|+)&=\frac{P(+|illness)P(illness)}{P(+|illness)P(illness)+P(+|health)P(health)}\\&=\frac{0.99\times 0.03}{0.99\times 0.03+0.05\times 0.97}=0.380
	\end{aligned}\end{equation}
	也就是说，这个人带病毒的概率是$38.0\%$，一个并不太高的数字，尽管从粗略上看这个试纸其实比较优秀，假阳性和假阴性的可能性都很低。造成这一反常现象的原因是，病毒在人口中的感染率太低了，因此从果推因，认为这个人是病毒携带者时必须慎之又慎。贝叶斯公式用精确刻画的方式还原了这个“慎之又慎”的过程。
	
	相反的例子，可以看看一个人检测出阴性，而他的确健康的概率是多少。由贝叶斯公式可以算出：
	\begin{equation}\begin{aligned}
	P(health|-)&=\frac{P(-|health)P(health)}{P(-|health)P(health)+P(-|illness)P(illness)}\\&=\frac{0.95*0.97}{0.95*0.97+0.01*0.03}=99.97\%
	\end{aligned}\end{equation}
	也就是说，由于绝大部分人是不带病毒的，因此一个人测出了阴性的结果，我们的确基本可以认为这个人不带病毒。毕竟，这是司空见惯的。
	
	再考虑一个具有实际意义的问题：在新冠肺炎期间，某人进行了三次独立的检测，两次阳性一次阴性。病毒在人群中的携带率、试纸准确性数据如上。试求他携带病毒的概率。
	
	检测三次所得到的结果可以分为四种情况，分别为
	\begin{equation}\begin{aligned}
	A_1&=(+,+,+)\quad A_2=(+,+,-)\\
	A_3&=(+,-,-)\quad A_4=(-,-,-)
	\end{aligned}\end{equation}
	而病毒携带者$B_1$、非携带者$B_2$进行检测出现上述情况的概率分别为：
	\begin{equation}
	\begin{cases}
	P(A_1|B_1)=0.99^3\\ 
	P(A_2|B_1)=3\times0.99^2\times0.01\\
	P(A_3|B_1)=3\times0.99\times0.01^2 \\
	P(A_4|B_1)=0.01^3\\
	P(A_1|B_2)=0.05^3 \\
	P(A_2|B_2)=3\times0.05^2\times0.95\\
	P(A_3|B_2)=3\times0.05\times0.95^2 \\
	P(A_4|B_2)=0.95^3
	\end{cases}
	\end{equation}
	故
	\begin{equation}
	P(B_1|A_2)=\frac{P(A_2|B_1)P(B_1)}{P(A_2|B_1)P(B_1)+P(A_2|B_2)P(B_2)}=11.3\%
	\end{equation}
	说明如果这个人检测了三次，而有一次的结果是阴性，那么他大概有一成可能是病毒携带者。如果这个人检测了三次都是阳性，那么
	\begin{equation}
	P(B_1|A_1)=\frac{P(A_1|B_1)P(B_1)}{P(A_1|B_1)P(B_1)+P(A_1|B_2)P(B_2)}=99.6\%
	\end{equation}
	所以，就基本可以断定此人是病毒携带者了。
	